近年來,數據中心基礎設施變得更加可靠,管理實踐也得到改進,因此預計報告的停機事件數量正在減少是公平的。但事實并非如此。根據Uptime Institute 2018 年的一項調查,31% 的受訪者在去年經歷了停機事件或嚴重退化,48% 的受訪者表示在過去三年中他們的站點或服務提供商至少發生過一次中斷。
停機時間很昂貴。它既費時又費錢,并且可能對準備不足的組織造成嚴重后果。據 Gartner 稱,停機時間平均每分鐘造成 5,600 美元的損失。這導致平均成本在每小時 140,000 美元到 540,00 美元之間,具體取決于組織。導致與停機時間相關的成本的一些因素包括:
- 銷售損失。對于在線開展業務的組織,停機時間直接導致客戶無法購買,從而失去潛在收入。如果企業依賴于網絡可用性來提供服務,則停機會導致無法與用戶通信。
- 品牌美譽度。如果客戶經常不得不處理妨礙他們輕松購買或使用服務的中斷,他們將不再是客戶并分享他們的糟糕體驗,從而嚇跑潛在客戶。
- 生產力下降。現代企業嚴重依賴在線通信和服務。如果沒有網絡訪問,由于員工無法完成大部分工作、生產線關閉或業務的其他方面受到阻礙,生產力通常會停滯不前。
- 支出。一些公司在 SLA 正??常運行時間合同中包含定義計劃外停機時應支付的補償的語言。
- 丟失數據。在中斷期間,數據可能會被破壞,并且可能會為破壞數據的網絡攻擊創造機會。數據通常會備份,但中斷會嚇到客戶并打擊他們的信心。
數據中心故障的首要原因是人為錯誤。其他常見原因包括網絡故障、停電、UPS 系統故障、自然災害和網絡犯罪。幸運的是,有一種解決方案可以幫助防止停機。
數據中心基礎設施管理 (DCIM) 軟件允許數據中心經理避免計劃外停機,每次停機可能造成數十萬美元的損失并對您的業務造成嚴重破壞。使用 DCIM 防止人為錯誤和最大化正常運行時間的一些方法是:
- 管理入口空氣溫度和濕度。機柜入口空氣的溫度和濕度很重要,因為這是流經機柜以降低熱量的空氣。如果入口空氣太熱,機柜將無法正常冷卻。如果空氣過于潮濕,則存在腐蝕和損壞設備的風險。如果空氣太干燥,可能會產生靜電。所有這些都可能導致代價高昂的停機時間。DCIM 軟件從數據中心的環境傳感器收集數據,并將信息顯示在商業智能儀表板和 3D 平面圖可視化中,以幫助您監控數據中心環境并識別熱點。
- 安全升高溫度。提高數據中心的溫度可以提高能源效率,但它會帶來過熱和損壞設備的風險,從而導致停機。借助 DCIM,您可以設置溫度閾值并在溫度超出所需范圍時接收警報。同樣,DCIM 將幫助您避免過冷以優化效率并降低能源成本。
- 確保電源冗余。由于對計算硬件的需求不斷增加,數據中心機柜現在更密集地裝有耗電 IT 設備。而且由于數據中心團隊通常專注于充分利用現有資源和延遲資本支出,他們可能直到為時已晚才意識到機柜超載。這使得設備故障時的電源冗余成為最大化正常運行時間的任何策略的關鍵組成部分。DCIM 軟件允許您運行故障轉移模擬報告并確定哪些機柜存在風險以及哪些設備可以在 PDU 出現故障時繼續安全運行。數據中心經理可以利用此信息在真正發生故障之前對負載進行必要的更改。
- 健康投票。確保智能 PDU 和其他設備正常運行并可通過您的網絡訪問對于保持正常運行時間非常重要。設備在沒有人注意到的情況下發生故障并非不可能。技術人員或工程師可能會不小心將 PDU 置于維護模式、忽略啟動新資源或使用不正確的端口或電纜連接設備。借助 DCIM 軟件,您可以通過以用戶可配置的時間間隔輪詢智能 PDU 和其他設備來確保它們可以訪問,從而限制因設備故障而導致停電的可能性。如果無法訪問設備,該軟件會立即提醒您,以便您在出現危機之前就知道該問題。
借助 DCIM,您可以模擬故障轉移并使用報告來測試假設情景,這些報告確定可用容量以確保發生故障時的覆蓋范圍,使用紅-黃-綠顏色編碼的健康地圖可視化數據中心和設施健康狀況,提供 at -機架負載水平、線路電流和環境條件一目了然,并通過自動電子郵件收到閾值違規警報,從而能夠快速識別熱點和潛在故障問題。憑借這些功能,DCIM 將在數據中心發生災難時幫助保護您的基礎設施。